查看原文
其他

通过简单示例来理解什么是机器学习

LEMON Python数据之道 2022-09-04

1 什么是机器学习

什么是机器学习?

这个问题不同的人员会有不同的理解。我个人觉得,用大白话来描述机器学习,就是让计算机能够通过一定方式的学习和训练,选择合适的模型,在遇到新输入的数据时,可以找出有用的信息,并预测潜在的需求。最终反映的结果就是,好像计算机或者其他设备跟人类一样具有智能化的特征,能够快速识别和选择有用的信息。

机器学习通常可以分为三个大的步骤,即 输入、整合、输出,可以用下图来表示大致的意思:

2 机器学习示例(scikit-learn)

在python语言中,scikit-learn是一个开源的机器学习库。下面以sklearn为例,来简单描述机器学习的过程。

2.1 加载数据

通常第一步是获取相关数据,并进行相应的处理,使之可以在后续过程中使用。

  1. from sklearn import datasets

  • 加载iris数据集并查看相关信息

  1. # 加载数据集

  2. iris = datasets.load_iris()

  3. # print(iris)

  4. print(type(iris))

  5. print(iris.keys())

  6. # 查看部分数据

  7. print(iris.data[ :5, :])

  8. # print(iris.data)

  1. <class 'sklearn.datasets.base.Bunch'>

  2. dict_keys(['DESCR', 'data', 'feature_names', 'target', 'target_names'])

  3. [[ 5.1  3.5  1.4  0.2]

  4. [ 4.9  3.   1.4  0.2]

  5. [ 4.7  3.2  1.3  0.2]

  6. [ 4.6  3.1  1.5  0.2]

  7. [ 5.   3.6  1.4  0.2]]

  1. # 查看数据维度大小

  2. print(iris.data.shape)

  3. # 数据属性

  4. print(iris.feature_names)

  5. # 特征名称

  6. print(iris.target_names)

  7. # 标签

  8. print(iris.target)

  1. (150, 4)

  2. ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']

  3. ['setosa' 'versicolor' 'virginica']

  4. [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

  5. 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

  6. 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2

  7. 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2

  8. 2 2]

2.2 选择机器学习模型or算法

在获取数据,并将数据整理好后,需要选择合适的模型or算法来进行训练。 机器学习的模型有很多种,这里不作讨论,且每种模型的参数选择也是很大的一门学问。

  1. from sklearn import svm

  2. svm_classifier = svm.SVC(gamma=0.1, C=100)

  3. # 预测结果得分很低

  4. # svm_classifier = svm.SVC(gamma=10000, C=0.001)

  5. # 定义测试集的数据量大小

  6. N = 10

  7. # 训练集

  8. train_x = iris.data[:-N, :]

  9. train_y = iris.target[ :-N]

  10. # 测试集

  11. test_x = iris.data[ :N, :]

  12. y_true = iris.target[:N]

  13. # 训练数据模型

  14. svm_classifier.fit(train_x, train_y)

  1. SVC(C=100, cache_size=200, class_weight=None, coef0=0.0,

  2.  decision_function_shape=None, degree=3, gamma=0.1, kernel='rbf',

  3.  max_iter=-1, probability=False, random_state=None, shrinking=True,

  4.  tol=0.001, verbose=False)

  • 将训练好的模式进行测试

  1. y_pred = svm_classifier.predict(test_x)

  • 查看测试结果

  1. from sklearn.metrics import accuracy_score

  2. print(accuracy_score(y_true, y_pred))

  1. 1.0

2.3 将训练好的模型进行应用,即预测

  • 保存模型

  1. import pickle

  2. with open('svm_model_iris.pkl', 'wb') as f:

  3.    pickle.dump(svm_classifier, f)

  • 加载模型进行应用

  1. import numpy as np

  2. # np.random.seed(9)

  3. with open('svm_model_iris.pkl', 'rb') as f:

  4.    model = pickle.load(f)

  5. random_samples_index = np.random.randint(0,150,6)

  6. random_samples = iris.data[random_samples_index, :]

  7. random_targets = iris.target[random_samples_index]

  8. random_predict = model.predict(random_samples)

  9. print('真实值:', random_targets)

  10. print('预测值:', random_predict)

  1. 真实值: [1 1 1 0 2 2]

  2. 预测值: [1 1 1 0 2 2]

闲谈

预测的结果好不好,直接体现出机器学习模型选择的优劣。对于机器学习这门高深的学问,我还有许多需要进一步学习的地方,欢迎一起交流,共同进步。

最后分享网上的一张图,来看看如何理解Machine Learning。


拓展阅读:

  1. python求职Top10城市,来看看是否有你所在的城市

  2. 5分钟掌握智联招聘网站爬取并保存到MongoDB数据库

  3. 【工具】历史文章列表及搜索功能实现

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存